多语言神经文本到语音(NTTS)系统的基本设计决策是如何表示模型中的输入语言特征。查看文献中各种各样的方法,出现了两个主要范式,统一和单独的表示。前者在跨语言中使用一组共享的语音令牌,而后者为每种语言使用独特的语音令牌。在本文中,我们进行了一项全面的研究,比较了两种表示训练的多语言NTTS系统模型。我们的结果表明,统一方法始终在自然和口音方面始终获得更好的跨语性综合。单独的表示形式往往比统一的代币更大的令牌,这可能会影响模型容量。因此,我们进行了一项消融研究,以了解表示类型与令牌嵌入尺寸的相互作用。我们发现,两个范式之间的差异仅在一定阈值嵌入尺寸之上出现。这项研究提供了有力的证据,表明在构建多语言NTTS系统时,统一表示应该是首选的范式。
translated by 谷歌翻译
培训仅使用单语言语料库的多语言神经文本到语音(NTTS)模型已成为构建基于语音克隆的Polyglot NTTS系统的流行方式。为了训练这些模型,必须了解培训语料库的组成如何影响多语言语音综合的质量。在这种情况下,通常会听到诸如“包含更多西班牙数据有助于我的意大利综合,考虑到两种语言的亲密关系?”之类的问题。不幸的是,我们发现有关该主题缺乏完整性的现有文献。在目前的工作中,我们进行了一项广泛的消融研究,旨在了解培训语料库的各种因素(例如语言家族隶属关系,性别组成和演讲者的数量)如何有助于多面化综合的质量。我们的发现包括在大多数情况下首选女性扬声器数据的观察结果,并且在培训语料库中拥有更多来自目标语言的说话者并不总是有益的。此处的发现对于数据采购和语料库构建过程提供了信息。
translated by 谷歌翻译
These notes were compiled as lecture notes for a course developed and taught at the University of the Southern California. They should be accessible to a typical engineering graduate student with a strong background in Applied Mathematics. The main objective of these notes is to introduce a student who is familiar with concepts in linear algebra and partial differential equations to select topics in deep learning. These lecture notes exploit the strong connections between deep learning algorithms and the more conventional techniques of computational physics to achieve two goals. First, they use concepts from computational physics to develop an understanding of deep learning algorithms. Not surprisingly, many concepts in deep learning can be connected to similar concepts in computational physics, and one can utilize this connection to better understand these algorithms. Second, several novel deep learning algorithms can be used to solve challenging problems in computational physics. Thus, they offer someone who is interested in modeling a physical phenomena with a complementary set of tools.
translated by 谷歌翻译
最近的工作``与物理启发的图形神经网络的组合优化'[Nat Mach Intell 4(2022)367]引入了物理启发的无监督图形神经网络(GNN),以求解稀疏图上的组合优化问题。为了测试这些GNN的性能,工作的作者显示了两个基本问题的数值结果:最大切割和最大独立集(MIS)。他们得出的结论是,“图形神经网络优化器在标准杆或胜过现有的求解器上的性能,并且能够超越最新技术的状态,以达到数百万变量的问题。”在此评论中,我们表明,一种简单的贪婪算法在几乎线性的时间内运行,可以找到与GNN质量好得多的MIS问题的解决方案。对于GNN而言,对于一百万个变量的问题,贪婪的算法的速度更快为10^4美元。我们看不出有任何充分的理由解决这些GNN的MIS,以及使用大锤破裂螺母的理由。通常,许多关于神经网络在解决组合问题方面的优势的主张有没有足够稳定的风险,因为我们基于真正的严重问题缺乏标准的基准。我们提出了这样的硬基准之一,我们希望在提出任何优越性的主张之前对未来的神经网络优化者进行测试。
translated by 谷歌翻译
自动识别基础心脏异常的结构底物可以潜在地为介入程序提供实时指导。有了心脏组织底物的了解,可以通过检测心律不齐的底物来进一步优化复杂的心律不齐和心室心动过速等复杂的心律不齐和心室心动过速。光学相干断层扫描(OCT)是一种实时成像方式,有助于满足这一需求。心脏图像分析的现有方法主要依赖于完全监督的学习技术,这些技术遇到了在像素标签的劳动密集型注释过程中工作量的缺点。为了减少对像素标签的需求,我们使用人类心脏底物的OCT图像上的图像级注释开发了一个两阶段的深度学习框架,用于心脏脂肪组织分割。特别是,我们将类激活映射与超像素分割整合在一起,以解决心脏组织分割中提出的稀疏组织种子挑战。我们的研究弥合了自动组织分析的需求与缺乏高质量像素的注释之间的差距。据我们所知,这是第一项尝试通过弱监督的学习技术来解决OCT图像上心脏组织分割的研究。在体外人类心脏OCT数据集中,我们证明了我们对图像级注释的弱监督方法可与对像素式注释进行训练的完全监督方法相当。
translated by 谷歌翻译
控制铰接对象时控制其姿势对于电影虚拟现实或动画等应用至关重要。然而,操纵对象的姿势需要了解其基础结构,即其关节以及它们如何互相互动。不幸的是,假设要知道的结构,因为现有方法所做的,排除了在新的对象类别上工作的能力。我们建议通过观察它们从多个视图移动,没有额外的监督,例如联合注释或有关该结构的信息,从而了解先前看不见的对象的外观和结构。我们的洞察力是,相对于彼此移动的相邻部件必须通过接头连接。为了利用这一观察,我们将3D的物体部分塑造为椭圆体,这使我们能够识别关节。我们将这种明确表示与隐式的表示,该显式表示可以补偿引入的近似值。我们表明我们的方法为不同的结构,从四足动物到单臂机器人到人类工作。
translated by 谷歌翻译
深度学习(DL)模型为各种医学成像基准挑战提供了最先进的性能,包括脑肿瘤细分(BRATS)挑战。然而,局灶性病理多隔室分割(例如,肿瘤和病变子区)的任务特别具有挑战性,并且潜在的错误阻碍DL模型转化为临床工作流程。量化不确定形式的DL模型预测的可靠性,可以实现最不确定的地区的临床审查,从而建立信任并铺平临床翻译。最近,已经引入了许多不确定性估计方法,用于DL医学图像分割任务。开发指标评估和比较不确定性措施的表现将有助于最终用户制定更明智的决策。在本研究中,我们探索并评估在Brats 2019-2020任务期间开发的公制,以对不确定量化量化(Qu-Brats),并旨在评估和排列脑肿瘤多隔室分割的不确定性估计。该公制(1)奖励不确定性估计,对正确断言产生高置信度,以及在不正确的断言处分配低置信水平的估计数,(2)惩罚导致更高百分比的无关正确断言百分比的不确定性措施。我们进一步基准测试由14个独立参与的Qu-Brats 2020的分割不确定性,所有这些都参与了主要的Brats细分任务。总体而言,我们的研究结果证实了不确定性估计提供了分割算法的重要性和互补价值,因此突出了医学图像分析中不确定性量化的需求。我们的评估代码在HTTPS://github.com/ragmeh11/qu-brats公开提供。
translated by 谷歌翻译
使用单视图2D照片仅集合,无监督的高质量多视图 - 一致的图像和3D形状一直是一个长期存在的挑战。现有的3D GAN是计算密集型的,也是没有3D-一致的近似;前者限制了所生成的图像的质量和分辨率,并且后者对多视图一致性和形状质量产生不利影响。在这项工作中,我们提高了3D GAN的计算效率和图像质量,而无需依赖这些近似。为此目的,我们介绍了一种表现力的混合明确隐式网络架构,与其他设计选择一起,不仅可以实时合成高分辨率多视图一致图像,而且还产生高质量的3D几何形状。通过解耦特征生成和神经渲染,我们的框架能够利用最先进的2D CNN生成器,例如Stylega2,并继承它们的效率和表现力。在其他实验中,我们展示了与FFHQ和AFHQ猫的最先进的3D感知合成。
translated by 谷歌翻译
基于纯粹关注的深度神经网络在几个领域中取得了成功,依赖于设计师的最小建筑前瞻性。在人类行动识别(HAR)中,主要是在标准卷积或复发层的顶部采用注意机制,从而提高了整体泛化能力。在这项工作中,我们介绍了动作变压器(ACT),这是一种简单的完全自我注意的架构,可以始终如一地优于混合卷积,复发和周度的更详细的网络。为了限制计算和能量请求,建立以前的人类行动识别研究,所提出的方法利用小型时间窗口的2D姿势表示,为准确且有效的实时性能提供低延迟解决方案。此外,我们开源MOMES2021是一个新的大规模数据集,作为建立正式培训和评估基准的实时短时哈哈。拟议的方法在MOMY2021上广泛测试,并与几个最先进的架构相比,证明了行为模型的有效性并铺设了未来工作的基础。
translated by 谷歌翻译
我们解决了预测动态场景视频的显着图的问题。我们注意到,从固定数量的观察者的凝视数据重建的地图的准确性随帧而变化,因为它取决于场景的内容。当有有限数量的观察者可用时,此问题尤其如此紧迫。在这种情况下,随着传统的深度学习方法,直接最大限度地减少预测和测量的显着性图之间的差异,导致对嘈杂数据过度接受。我们提出了一种噪声感知培训(NAT)范式,这些培训量量化和占帧特异性凝视数据不准确的不确定性。我们表明NAT在有限的培训数据可用时特别有利,在不同模型,丢失函数和数据集中有实验。我们还引入了基于视频游戏的显着数据集,具有富有的时间语义,每帧多个凝视吸引子。数据集和源代码可在https://github.com/nvlabs/nattacy上获得。
translated by 谷歌翻译